Alineando preferencias implícitas profundas mediante razonamiento defensivo Alinea modelos de lenguaje con preferencias implícitas usando razonamiento defensivo y aprendizaje por refuerzo. CDRA mejora personalización y seguridad. 2026-06-04 · 2 min